Análise de Agrupamentos

O que é clustering?

É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos.

O objetivo típico em clustering é descobrir os “agrupamentos naturais” presente nos dados.

O que é clustering?

Conjunto de dados contendo agrupamentos “naturais”:

O que é clustering?

Conjunto de dados sem agrupamentos “naturais”:

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Método estatístico: Estatística de Hopkins

A Estatística de Hopkins é uma medida pré-clusterização muito usada para avaliar se um conjunto de dados apresenta tendência natural à formação de agrupamentos (clusters) ou se os pontos estão distribuídos de forma aproximadamente aleatória no espaço das variáveis.

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Método estatístico: Estatística de Hopkins

A ideia central é comparar distâncias:
- Distâncias entre pontos reais do conjunto de dados
- Distâncias entre pontos artificiais gerados aleatoriamente no mesmo espaço amostral
Se os dados tiverem estrutura de clusters, os pontos reais tendem a estar mais próximos entre si do que pontos gerados aleatoriamente.

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Método estatístico: Estatística de Hopkins

Considerando um inteiro \(m \ll n\), de pontos amostrados (normalizados), calcula-se a distância de cada ponto até o vizinho mais próximo, excluindo o próprio ponto

\[ w_i = \min_{x_j \in X \setminus \{x_i\}} d(x_i, x_j), \qquad i = 1,\ldots,m \]

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Método estatístico: Estatística de Hopkins

Geram-se \(m\) pontos artificiais \(y_1, \ldots, y_m\), assumindo distribuição uniforme no hipercubo definido pelos limites dos dados e independência entre as dimensões. Para cada ponto artificial \(j\), calcula-se a distância até o vizinho mais próximo no conjunto real.

\[ u_i = \min_{x \in X} d(y_i, x), \qquad i = 1,\ldots,m \]

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Método estatístico: Estatística de Hopkins

\[H = \dfrac{\sum \limits_{i=1}^m u_i}{\sum \limits_{i=1}^m u_i + \sum \limits_{i=1}^m w_i}\]

\(w_i\): distância do ponto real ao vizinho mais próximo
\(u_i\): distância do ponto artificial ao ponto real mais próximo

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Interpretação da Estatística de Hopkins

Sob a hipótese de ausência de clusters (padrão de referência), espera-se que as distâncias \(u_i\) e \(w_i\) sejam, em média, comparáveis, o que leva a: \[ H \approx 0.5 \]

Em termos práticos:

\(H \approx 0.5\): dados compatíveis com padrão aleatório (baixa tendência à clusterização);
\(H > 0.5\): evidência de tendência à formação de clusters (quanto mais próximo de 1, mais agregado);
\(H < 0.5\): padrão mais regular ou espalhado do que o aleatório.

Tendência de agrupamentos: “Faz sentido aplicar um algoritmo de clusterização nesses dados?”

Interpretação da Estatística de Hopkins

Observação: como \(H\) depende de amostragem aleatória (seleção dos \(m\) pontos e geração dos pontos artificiais), é recomendável repetir o cálculo várias vezes e resumir o resultado por média ou mediana.

Tendência de agrupamentos

Método visual: Avaliação visual da tendência de agrupamento (VAT)

A Avaliação Visual da Tendência de Agrupamento (VAT) é um método exploratório que avalia, de forma gráfica, se um conjunto de dados apresenta evidência de agrupamentos naturais.
O procedimento baseia-se na matriz de distâncias entre as observações. Após o cálculo da matriz \[ D = [d(x_i,x_j)]_{n\times n}, \] as observações são reordenadas de modo que pontos similares fiquem próximos, e a matriz resultante é exibida como um mapa de calor.

Tendência de agrupamentos

Método visual: Avaliação visual da tendência de agrupamento (VAT)

Tendência de agrupamentos

Método visual: Avaliação visual da tendência de agrupamento (VAT)

A interpretação é feita visualmente:
- blocos escuros ao longo da diagonal indicam possível presença de clusters;
- ausência de blocos bem definidos sugere padrão aleatório ou ausência de estrutura de agrupamento.
O VAT é uma ferramenta pré-clusterização e deve ser utilizado de forma complementar a medidas quantitativas, como a Estatística de Hopkins.

Que perguntas a clusterização pode responder?

A clusterização é uma técnica de aprendizado não supervisionado cujo objetivo é identificar grupos de observações semelhantes, sem rótulos prévios. Ela é usada tanto como objetivo final quanto como ferramenta de apoio à decisão.

Como agrupo os clientes que compram no site?
A clusterização permite identificar perfis de clientes com comportamentos de compra semelhantes, apoiando estratégias de segmentação e marketing.

Onde coloco uma antena de operadora de celular?
A partir da clusterização espacial de usuários ou regiões, é possível identificar áreas de alta concentração de demanda, sugerindo locais estratégicos para instalação.

Que perguntas a clusterização pode responder?

Onde deixo uma ambulância estacionada para atender uma emergência?
A clusterização de ocorrências passadas ajuda a identificar zonas críticas, auxiliando na alocação eficiente de recursos de emergência.

Como classifico cervejas em categorias distintas?
A clusterização explora similaridades entre produtos e pode revelar categorias naturais ou estilos semelhantes, apoiando a construção de classificações.

Algumas questões…

🤔 Como medir a homogeneidade entre indivíduos?

🤔 E entre grupos de indivíduos?

🤔 Dado um conjunto de indivíduos, quantos grupos posso formar?

Algumas questões…

Imagine que você tenha 16 cartas figuradas (\(A,K,Q,J\)) e que queira formar grupos de cartas semelhantes…

Como você formaria esses grupos?

Algumas questões…

Algumas questões…

Algumas questões…

Copas mais a Rainha de espadas e outros naipes?

Algumas questões…

Resumindo…

Necessidade da definição de medidas de similaridade (ou dissimilaridade)

Similaridade e dissimilaridade

Medidas de Similaridade: quanto maior o valor, maior a semelhança entre os objetos

Medidas de Dissimilaridade (Distância): quanto maior o valor, mais diferentes são os objetos

Similaridade e dissimilaridade (exemplo)

Pesquisa com clientes de uma loja de equipamentos automotivos

Variáveis mensuradas

Idade (em anos completos) - Variável quantitativa discreta
Número de carros - Variável quantitativa discreta
Classe social: A, B, C ou D - Variável qualitativa ordinal
Potência do motor: Baixa, Média ou Alta - Variável qualitativa ordinal
Combustível: Gasolina ou Álcool - Variável qualitativa nominal
Modelo: Esporte, Luxo ou Standard - Variável qualitativa nominal

Base de dados (exemplo)

Cliente	Idade	N.º de carros	Classe social	Potência do motor	Combustível	Modelo
1	20	1	A	Baixa	Gasolina	Esporte
2	37	2	A	Alta	Gasolina	Luxo
3	51	1	C	Média	Gasolina	Esporte
4	32	1	D	Alta	Álcool	Standard
5	30	2	B	Média	Álcool	Standard
6	55	3	A	Alta	Gasolina	Luxo

Como medir a similaridade ou dissimilaridade entre os indivíduos?

Variáveis quantitativas

Dissimilaridade

As distâncias são as medidas de dissimilaridade mais utilizadas no estudo de bancos de dados com variáveis numéricas

Uma medida \(d_{ij}\) representa uma medida de distância entre os indivíduos \(i\) e \(j\) se, e somente se,
1. \(d_{ij} \geqslant 0\) para todo \(i\) e \(j\);
2. \(d_{ij} = 0\) se, e somente se, \(i = j\);
3. \(d_{ij} = d_{ji}\)
4. \(d_{ij} \leqslant d_{ik} + d_{kj}\) para qualquer indivíduo \(k\).

Dissimilaridade

Desigualdade triangular

Dissimilaridade

Principais medidas de distância

Distância Euclidiana

\[d_{ij} = \displaystyle{\sqrt{(\mathbf{x}_i - \mathbf{x}_j)^t(\mathbf{x}_i - \mathbf{x}_j)}} = \sqrt{\displaystyle{\sum_{k=1}^p(x_{ik} - x_{jk})^2}}\]

Distância geométrica entre dois pontos

Dissimilaridade

Principais medidas de distância

Distância Euclidiana Generalizada

\[d_{ij} = \displaystyle{\sqrt{(\mathbf{x}_i - \mathbf{x}_j)^t\boldsymbol{W}(\mathbf{x}_i - \mathbf{x}_j)}}\]

Se \(\boldsymbol{W} = \textrm{diag}\left(\dfrac{1}{p}\right)\): distância euclidiana média
Se \(\boldsymbol{W} = \boldsymbol{\Sigma}^{-1}\): distância de Mahalanobis

Dissimilaridade

Principais medidas de distância

Distância de Minkowski

\[d_{ij} = \left( \displaystyle{\sum_{k=1}^P} |X_{ik} - X_{jk}|^{\lambda}\right)^{\frac{1}{\lambda}}\]

Se \(\lambda = 1\), temos a chamada métrica de Manhattan. É também conhecida como city block.
Se \(\lambda = 2\), temos a distância euclidiana.
A métrica de Minkowski é menos afetada pela presença de valores discrepantes na amostra do que a distância Euclidiana.

Dissimilaridade

Principais medidas de distância

Distância de Manhattan (city block)

Dissimilaridade

Dissimilaridade \(\Longrightarrow\) Similaridade

\[s_{ij} = 1 - d_{ij}^0\]

em que

\[d_{ij}^0 = \displaystyle{\frac{d_{ij} - \min(\boldsymbol{D})}{\max(\boldsymbol{D}) - \min(\boldsymbol{D})}}\]

Sendo \(\min(\boldsymbol{D})\) e \(\max(\boldsymbol{D})\) o menor e o maior valor de distância observados na matriz de distâncias \(\boldsymbol{D}_{n \times n}\), sem levar em consideração os elementos da diagonal principal dessa matriz.

Variáveis qualitativas

Similaridade

Variáveis qualitativas nominais

Neste caso, utilizamos variáveis fictícias (variáveis dummy) para codificar as variáveis:

Combustível	\(N_1\)
Gasolina	1
Álcool	0

Modelo	\(N_2\)	\(N_3\)
Esporte	1	0
Luxo	0	1
Standard	0	0

Similaridade

Variáveis qualitativas nominais

No exemplo:

Cliente	Combustível	\(N_1\)
1	Gasolina	1
2	Gasolina	1
3	Gasolina	1
4	Álcool	0
5	Álcool	0
6	Gasolina	1

Cliente	Modelo	\(N_2\)	\(N_3\)
1	Esporte	1	0
2	Luxo	0	1
3	Esporte	1	0
4	Standard	0	0
5	Standard	0	0
6	Luxo	0	1

Similaridade

Variáveis qualitativas nominais

De forma que,

Cliente	\(N_1\)	\(N_2\)	\(N_3\)
1	1	1	0
2	1	0	1
3	1	1	0
4	0	0	0
5	0	0	0
6	1	0	1

Similaridade

Variáveis qualitativas ordinais

Utilizamos variáveis fictícias (variáveis dummy) para codificar as variáveis, levando em consideração a ordinalidade das variáveis:

Classe social	\(O_1\)	\(O_2\)	\(O_3\)
A	1	1	1
B	0	1	1
C	0	0	1
D	0	0	0

Potência	\(O_4\)	\(O_5\)
Alta	1	1
Média	0	1
Baixa	0	0

Similaridade

Observação

As variáveis Classe social e Potência do motor possuem ordem natural. Por isso, foram codificadas por meio de variáveis ordinais cumulativas:

valores mais altos acumulam mais indicadores iguais a 1;
valores mais baixos recebem apenas zeros.

Essa codificação preserva a informação de ordem, mas impõe uma estrutura geométrica específica ao espaço dos dados.

Similaridade

Variáveis qualitativas ordinais

No exemplo:

Cliente	Classe social	\(O_1\)	\(O_2\)	\(O_3\)
1	A	1	1	1
2	A	1	1	1
3	C	0	0	1
4	D	0	0	0
5	B	0	1	1
6	A	1	1	1

Cliente	Potência	\(O_4\)	\(O_5\)
1	Baixa	0	0
2	Alta	1	1
3	Média	0	1
4	Alta	1	1
5	Média	0	1
6	Alta	1	1

Similaridade

Variáveis qualitativas ordinais

De forma que,

Cliente	\(O_1\)	\(O_2\)	\(O_3\)	\(O_4\)	\(O_5\)
1	1	1	1	0	0
2	1	1	1	1	1
3	0	0	1	0	1
4	0	0	0	1	1
5	0	1	1	0	1
6	1	1	1	1	1

Similaridade

Variáveis qualitativas nominais e ordinais

Juntando tudo…

Cliente	\(O_1\)	\(O_2\)	\(O_3\)	\(O_4\)	\(O_5\)	\(N_1\)	\(N_2\)	\(N_3\)
1	1	1	1	0	0	1	1	0
2	1	1	1	1	1	1	0	1
3	0	0	1	0	1	1	1	0
4	0	0	0	1	1	0	0	0
5	0	1	1	0	1	0	0	0
6	1	1	1	1	1	1	0	1

Similaridade

Variáveis qualitativas nominais e ordinais

Considere os clientes 1 e 3. Vamos calcular a medida de similaridade entre eles:

Cliente	\(O_1\)	\(O_2\)	\(O_3\)	\(O_4\)	\(O_5\)	\(N_1\)	\(N_2\)	\(N_3\)
1	1	1	1	0	0	1	1	0
3	0	0	1	0	1	1	1	0

Similaridade

Tabela de concordância entre dois indivíduos

Indivíduo \(i\) \ Indivíduo \(j\)	1	0	Total
1	\(a\)	\(b\)	\(a + b\)
0	\(c\)	\(d\)	\(c + d\)
Total	\(a + c\)	\(b + d\)	\(p\)

\(a\): número de variáveis em que ambos têm valor 1
\(b\): número de variáveis em que \(i=1\) e \(j=0\)
\(c\): número de variáveis em que \(i=0\) e \(j=1\)
\(d\): número de variáveis em que ambos têm valor 0

\[p = a + b + c + d\]

Similaridade

Tabela de concordância entre dois indivíduos

No exemplo:

Indivíduo 1 \ Indivíduo 3	1	0	Total
1	3	2	5
0	1	2	3
Total	4	4	8

Como extrair as medidas de similaridade baseadas na tabela de concordância dos elementos?

Critérios de similaridade

Coeficiente de Concordância Simples

\[\Large s_{ij} = \displaystyle{\frac{a + d}{p}}\]

Indivíduo 1 \ Indivíduo 3	1	0	Total
1	3	2	5
0	1	2	3
Total	4	4	8

\[ s_{13} = \dfrac{a + d}{p} = \dfrac{3 + 2}{8} = \dfrac{5}{8} = 0,625 \]

Critérios de similaridade

Coeficiente de Concordância Simples

Interpretação:

O valor 0,625 indica que os indivíduos 1 e 3 concordam em 62,5% das variáveis binárias.
Tanto concordâncias em 1 quanto em 0 contribuem igualmente para a similaridade.

Critérios de similaridade

Coeficiente de Concordância Positiva

\[\Large s_{ij} = \displaystyle{\frac{a}{p}}\]

Indivíduo 1 \ Indivíduo 3	1	0	Total
1	3	2	5
0	1	2	3
Total	4	4	8

\[ s_{13} = \dfrac{a}{p}= \dfrac{3}{8} = 0,375 \]

Critérios de similaridade

Coeficiente de Concordância Positiva

Interpretação:

Os indivíduos 1 e 3 compartilham simultaneamente o valor 1 em 37,5% das variáveis.
Ausências simultâneas (valor 0) não contribuem para a similaridade.
O critério enfatiza presença conjunta, não coincidência geral.

Critérios de similaridade

Coeficiente de Concordância de Jaccard

\[\Large s_{ij} = \displaystyle{\frac{a}{a + b + c}}\]

Indivíduo 1 \ Indivíduo 3	1	0	Total
1	3	2	5
0	1	2	3
Total	4	4	8

\[ s_{13} = \dfrac{3}{3 + 2 + 1} = \dfrac{3}{6} = 0,5 \]

Critérios de similaridade

Coeficiente de Concordância de Jaccard

Interpretação:

Os indivíduos 1 e 3 compartilham 50% das presenças observadas.
Ausências simultâneas (valor 0) não contribuem para a similaridade.
O coeficiente foca exclusivamente na interseção de atributos presentes.

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

O Coeficiente de Concordância de Gower–Legendre é uma medida de similaridade projetada para dados mistos, isto é, conjuntos de dados que contêm, ao mesmo tempo:

variáveis quantitativas,
variáveis qualitativas nominais,
variáveis qualitativas ordinais.

Ele permite combinar diferentes tipos de variáveis em uma única medida de similaridade, respeitando a natureza de cada uma.

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Considere dois indivíduos \(i\) e \(j\) descritos por \(p\) variáveis. A similaridade de Gower–Legendre é definida como:

\[ S_{ij} = \dfrac{\sum_{k=1}^{p} w_{ijk}\, s_{ijk}} {\sum_{k=1}^{p} w_{ijk}}, \] onde:

\(s_{ijk}\) é a similaridade parcial da variável \(k\) entre os indivíduos \(i\) e \(j\);
\(w_{ijk}\) é um peso (geralmente \(0\) ou \(1\)), usado para tratar dados ausentes.

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

O coeficiente assume valores em \([0,1]\):

\(S_{ij} = 1\) indica indivíduos idênticos;
\(S_{ij} = 0\) indica máxima dissimilaridade.

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridade parcial por tipo de variável

Variáveis quantitativas

Para uma variável quantitativa \(k\):

\[ s_{ijk} = 1 - \dfrac{|x_{ik} - x_{jk}|}{R_k}, \]

onde \(R_k\) é o intervalo da variável \(k\) (máximo − mínimo).

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridade parcial por tipo de variável

Variáveis qualitativas nominais

Para uma variável nominal:

\[ s_{ijk} = \begin{cases} 1, & \text{se } x_{ik} = x_{jk}, \\ 0, & \text{caso contrário}. \end{cases} \]

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridade parcial por tipo de variável

Variáveis qualitativas ordinais

Para variáveis ordinais, os níveis são primeiro convertidos em postos normalizados no intervalo \([0,1]\). Em seguida, aplica-se a mesma fórmula das variáveis quantitativas:

\[ s_{ijk} = 1 - |r_{ik} - r_{jk}|, \]

onde \(r_{ik}\) e \(r_{jk}\) são os postos normalizados.

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Interpretação:

Cada variável contribui de forma controlada para a similaridade total.
Variáveis com escalas diferentes não dominam o cálculo.
A ordem das categorias é respeitada para variáveis ordinais, sem impor distâncias artificiais.

Critérios de similaridade

Similaridade \(\Longrightarrow\) Dissimilaridade

\[\Large d_{ij}^* = 1 - s_{ij}\]

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

No exemplo:

Cliente	Idade	N.º de carros	Classe social	Potência do motor	Combustível	Modelo
1	20	1	A	Baixa	Gasolina	Esporte
2	37	2	A	Alta	Gasolina	Luxo
3	51	1	C	Média	Gasolina	Esporte
4	32	1	D	Alta	Álcool	Standard
5	30	2	B	Média	Álcool	Standard
6	55	3	A	Alta	Gasolina	Luxo

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Temos que:

Cliente 1: Idade = 20, Carros = 1, Classe = A, Potência = Baixa, Combustível = Gasolina, Modelo = Esporte
Cliente 3: Idade = 51, Carros = 1, Classe = C, Potência = Média, Combustível = Gasolina, Modelo = Esporte

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridades parciais

Idade

\[ s=\;1-\dfrac{|20-51|}{35}=1-\dfrac{31}{35}=\dfrac{4}{35}\approx 0,1143 \]

Nº de carros

\[ s=\;1-\dfrac{|1-1|}{2}=1 \]

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridades parciais

Classe social (ordinal)

\(r(A)=1\) e \(r(C)=\tfrac{1}{3}\): \[ s=\;1-\left|1-\tfrac{1}{3}\right|=1-\tfrac{2}{3}=\tfrac{1}{3}\approx 0,3333 \]

Potência (ordinal)

\(r(\text{Baixa})=0\) e \(r(\text{Média})=\tfrac{1}{2}\): \[ s=\;1-\left|0-\tfrac{1}{2}\right|=\tfrac{1}{2}=0,5 \]

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridades parciais

Combustível (nominal)

Gasolina = Gasolina \(\Rightarrow s=1\)

Modelo (nominal)

Esporte = Esporte \(\Rightarrow s=1\)

Critérios de similaridade

Coeficiente de Concordância de Gower e Legendre

Similaridade total

São \(p=6\) variáveis: \[ S_{1,3} =\dfrac{0,1143+1+0,3333+0,5+1+1}{6} \approx 0,6579 \]

Métodos de Agrupamento

Métodos hierárquicos: Baseiam-se na realização de sucessivas aglomerações ou de sucessivas divisões dos dados. Envolvem a construção de uma hierarquia através de uma estrutura do tipo árvore.

Métodos não-hierárquicos: Produzem uma partição em um número fixo de classes, com sucessivas alocações e re-alocações dos indivíduos, conforme as distâncias aos demais indivíduos. Necessário definir o número de grupos à {}.

Métodos hierárquicos

Aglomerativos: Os agrupamentos são formados a partir de uma matriz de parecença, que é atualizada a cada união de um par de objetos. Neste procedimento, cada indivíduo, originalmente, é um cluster, configurando \(n\) clusters. Indivíduos similares são sucessivamente agrupados, até a formação de um único grupo, contendo toda a amostra.

Métodos hierárquicos

Divisivos (ou de Partição): Fazem o caminho oposto aos métodos hierárquicos aglomerativos. Neste método, um único grupo de objetos é subdividido em dois com a maior distância. Estes subgrupos são então particionados sucessivamente até se obter os objetos individuais.

Métodos de Agrupamento Hierárquicos

Agrupamentos hierárquicos aglomerativos

Considerar inicialmente \(n\) grupos, sendo \(n\) o número de indivíduos. A matriz de distâncias \(\boldsymbol{D}_{n \times n}\) é a matriz de distâncias entre os elementos originais;
Selecionar os dois indivíduos mais próximos na matriz \(\boldsymbol{D}_{n \times n}\) e formar com eles um grupo;
Substituir os indivíduos utilizados no passo b) para definir o grupo por um novo elemento que represente o grupo construído. A distância entre esse novo elemento e os indivíduos restantes são calculadas utilizando um dos critérios que serão definidos a seguir;
Voltar ao passo b) e repetir os passos b) e c) até que tenhamos todos os elementos agrupados em um único grupo.

Métodos de Agrupamento Hierárquicos

Resultado da aplicação do método

Representa uma síntese gráfica do método de agrupamento
Esse gráfico é de grande utilidade para a classificação, comparação e discussão de agrupamentos.

Métodos de Agrupamento Hierárquicos

Como definir distância entre grupos?

Suponha que temos um grupo \(K\) com \(n_k\) indivíduos e um grupo \(L\) com \(n_l\) indivíduos.
A distância entre os grupos \(K\) e \(L\) pode ser calculada com base em um dos cinco métodos seguintes:
- Método do vizinho mais próximo (single linkage)
- Método do vizinho mais distante (complete linkage)
- Método da distância média (average linkage)
- Método do centroide (Centroid)
- Método de Ward

Métodos de Agrupamento Hierárquicos

Método do vizinho mais próximo

Consiste em considerar que a distância entre os dois grupos é a menor distância entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,

\[\Large d_{(K,L)} = \underbrace{\min(d_{ij})}_{i \in K, j \in L}\]

Métodos de Agrupamento Hierárquicos

Método do vizinho mais próximo

Esquematicamente:

Métodos de Agrupamento Hierárquicos

Método do vizinho mais próximo

Esquematicamente:

Métodos de Agrupamento Hierárquicos

Método do vizinho mais distante

Consiste em considerar que a distância entre os dois grupos é a maior distância entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,

\[\Large d_{(K,L)} = \underbrace{\max(d_{ij})}_{i \in K, j \in L}\]

Métodos de Agrupamento Hierárquicos

Método da distância média

Consiste em considerar que a distância entre os dois grupos é a média aritmética das distâncias entre as possíveis combinações de indivíduos tomados dos dois grupos considerados, isto é,

\[\Large d_{(K,L)} = \displaystyle{\sum_{i \in K} \sum_{j \in L}} \displaystyle{\frac{d_{ij}}{n_kn_l}}\]

Métodos de Agrupamento Hierárquicos

Método do centroide

Consiste em considerar que a distância entre os dois grupos é a distância euclidiana ao quadrado entre os centroides dos dois grupos. O centroide de um grupo é o ponto médio dos objetos contidos no grupo, isto é,

\[\Large d_{(K,L)} = (\bar{K} - \bar{L})^t(\bar{K} - \bar{L})\]

\[\bar{K} = \displaystyle{\frac{\displaystyle{\sum_{i \in K} i}}{n_k}} \hspace{0.2cm} {\rm e} \hspace{0.2cm} \bar{L} = \displaystyle{\frac{\displaystyle{\sum_{j \in L} j}}{n_l}}\]

Métodos de Agrupamento Hierárquicos

Método de Ward

Considere a soma de quadrados intra-cluster de um cluster \(A\):

\[SQE_A = \displaystyle{\sum_{i = 1}^{n_A}}(x_{i} - \bar{\bf x}_A)^t(x_{i} - \bar{\bf x}_A)\]

Definimos o acréscimo na soma de quadrados resultante da junção de dois clusters \(A\) e \(B\) em um cluster \(AB\) por:

\[I_{AB} = SQE_{AB} - (SQE_A + SQE_B)\]

Métodos de Agrupamento Hierárquicos

Método de Ward

A união entre clusters \(A\) e \(B\) que proporcionarem menor acréscimo na \(SQE\) é executada.
Para usar o método de Ward, as variáveis devem ser quantitativas.

Métodos de Agrupamento Hierárquicos

Exemplo

A fim de exemplificar a aplicação dos métodos de agrupamento, considere os dados da Tabela ao lado. Os sete casos são considerados as observações de cada indivíduo para as variáveis \(X_1\) e \(X_2\).

Caso	\(X_1\)	\(X_2\)
1	1	1
2	2	1
3	3	2
4	2	4,5
5	1	5
6	3	7
7	6	5

Métodos de Agrupamento Hierárquicos

Exemplo

Representação dos casos no plano

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_0 = \left[ \begin{matrix} &1 & 2&3&4&5&6&7\\ 1& 0,000 & 1,000 & 2,236 & 3,640 & 4,000 & 6,325 & 6,403 \\ 2& & 0,000 & 1,414 & 3,500 & 4,123 & 6,083 & 5,657 \\ 3& & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4& & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5& & & & & 0,000 & 2,828 & 5,000 \\ 6& & & & & & 0,000 & 3,606 \\ 7& & & & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_0 = \left[ \begin{matrix} &1 & 2&3&4&5&6&7\\ 1& 0,000 & \textbf{1,000} & 2,236 & 3,640 & 4,000 & 6,325 & 6,403 \\ 2& & 0,000 & 1,414 & 3,500 & 4,123 & 6,083 & 5,657 \\ 3& & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4& & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5& & & & & 0,000 & 2,828 & 5,000 \\ 6& & & & & & 0,000 & 3,606 \\ 7& & & & & & & 0,000 \end{matrix} \right]\]

\[\scriptsize d_{12} = \sqrt{\displaystyle{(X_{11} - X_{21})^2 + (X_{12} - X_{22})^2}} = \sqrt{\displaystyle{(1 - 1)^2 + (2 - 1)^2}} = \sqrt{1} = 1\]

Métodos de Agrupamento Hierárquicos

Exemplo

Passo 1: juntar os casos 1 e 2

Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.
Aqui os métodos se diferenciam!
Método do vizinho mais próximo

Métodos de Agrupamento Hierárquicos

Exemplo

Construção da nova matriz de distâncias

\[ \begin{aligned} d_{((1,2)3)} &= \min(d_{13};d_{23}) = \min(2,236; 1,414) = 1,414 \\[6pt] d_{((1,2)4)} &= \min(d_{14};d_{24}) = \min(3,640; 3,500) = 3,500 \\[6pt] d_{((1,2)5)} &= \min(d_{15};d_{25}) = \min(4,000; 4,123) = 4,000 \\[6pt] d_{((1,2)6)} &= \min(d_{16};d_{26}) = \min(6,325; 6,083) = 6,083 \\[6pt] d_{((1,2)7)} &= \min(d_{17};d_{27}) = \min(6,403; 5,657) = 5,657 \end{aligned} \]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_1 = \left[ \begin{matrix} &(1,2)&3&4&5&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 4,000 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4 & & & 0,000 & 1,118 & 2,693 & 4,031 \\ 5 & & & & 0,000 & 2,828 & 5,000 \\ 6 & & & & & 0,000 & 3,606 \\ 7 & & & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_1 = \left[ \begin{matrix} &(1,2)&3&4&5&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 4,000 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 3,606 & 5,000 & 4,243 \\ 4 & & & 0,000 & \textbf{1,118} & 2,693 & 4,031 \\ 5 & & & & 0,000 & 2,828 & 5,000 \\ 6 & & & & & 0,000 & 3,606 \\ 7 & & & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Passo 2: juntar os casos 4 e 5

Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.

\[ \begin{aligned} d_{((4,5)(1,2))} &= \min(d_{14};d_{24};d_{15};d_{25}) = \min(3,640; 3,500; 4,000; 4,123) = 3,500 \\ &= \min(d_{(1,2)4};d_{(1,2)5}) = \min(3,500;4,000) \\ d_{((4,5)3)} &= \min(d_{34};d_{35}) = \min(2,693; 3,606) = 2,693 \\ d_{((4,5)6)} &= \min(d_{46};d_{56}) = \min(2,693; 2,828) = 2,693 \\ d_{((4,5)7)} &= \min(d_{47};d_{57}) = \min(4,031; 5,000) = 4,031 \end{aligned} \]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_2 = \left[ \begin{matrix} &(1,2)&3&(4,5)&6&7\\ (1,2)& 0,000 & 1,414 & 3,500 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & & 0,000 & 2,693 & 4,031 \\ 6 & & & & 0,000 & 3,606 \\ 7 & & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_2 = \left[ \begin{matrix} &(1,2)&3&(4,5)&6&7\\ (1,2)& 0,000 & \textbf{1,414} & 3,500 & 6,083 & 5,657 \\ 3 & & 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & & 0,000 & 2,693 & 4,031 \\ 6 & & & & 0,000 & 3,606 \\ 7 & & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Passo 3: juntar o grupo \((1,2)\) como caso 3

Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.

\[ \small \begin{aligned} d_{(((1,2,3)(4,5))} &= \min(d_{14};d_{24};d_{34};d_{15};d_{25};d_{35}) \\ &= \min(3,640; 3,500; 2,693; 4,000; 4,123; 3,606) = 2,693 \\ &= \min(d_{(1,2)(4,5)};d_{(4,5)3}) = \min(3,500;2,693) \\ d_{((1,2,3)6)} &= \min(d_{16};d_{26};d_{36}) = \min(6,325; 6,083; 5,000) = 5,000 \\ &= \min(d_{((1,2)6)};d_{36}) = \min(6,083;5,000) \\ d_{((1,2,3)7)} &= \min(d_{17};d_{27};d_{37}) = \min(6,403; 5,657; 4,243) = 4,243 \\ &= \min(d_{((1,2)7)};d_{37}) = \min(5,657;4,243) \\ \end{aligned} \]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_3 = \left[ \begin{matrix} &(1,2,3) &(4,5)&6&7\\ (1,2,3)& 0,000 & 2,693 & 5,000 & 4,243 \\ (4,5) & & 0,000 & 2,693 & 4,031 \\ 6 & & & 0,000 & 3,606 \\ 7 & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_3 = \left[ \begin{matrix} &(1,2,3) &(4,5)&6&7\\ (1,2,3)& 0,000 & \textbf{2,693} & 5,000 & 4,243 \\ (4,5) & & 0,000 & \textbf{2,693} & 4,031 \\ 6 & & & 0,000 & 3,606 \\ 7 & & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Passo 4: juntar o grupo \((4,5)\) como caso 6

Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.

\[ \small \begin{aligned} d_{(((4,5,6)(1,2,3))} &= \min(d_{14};d_{24};d_{34};d_{15};d_{25};d_{35};d_{16};d_{26};d_{36}) \\ &= \min(3,640; 3,500; 2,693; 4,000; 4,123; 3,606; 6,325; 6,083; 5,000) = 2,693 \\ &= \min(d_{(1,2,3)(4,5)};d_{(1,2,3)6}) = \min(2,693; 5,000) \\ d_{((4,5,6)7)} &= \min(d_{47};d_{57};d_{67}) = \min(4,031; 5,000; 3,606) = 3,606 \\ &= \min(d_{((4,5)7)};d_{67}) = \min(4,031;3,606) \\ \end{aligned} \]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_4 = \left[ \begin{matrix} &(1,2,3) &(4,5,6) &7\\ (1,2,3)& 0,000 & 2,693 & 4,243 \\ (4,5,6) & & 0,000 & 3,606 \\ 7 & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_4 = \left[ \begin{matrix} &(1,2,3) &(4,5,6) &7\\ (1,2,3)& 0,000 & \textbf{2,693} & 4,243 \\ (4,5,6) & & 0,000 & 3,606 \\ 7 & & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Passo 5: juntar o grupo \((1,2,3)\) com o grupo \((4,5,6)\)

Redefinir a matriz de distâncias considerando os casos mais parecidos como se fossem um único grupo.

\[ \begin{aligned} d_{((1,2,3,4,5,6)7)} &= \min(d_{17};d_{27};d_{37};d_{47};d_{57};d_{67}) \\ &= \min(6,403; 5,657; 4,243; 4,031; 5,000; 3,606) = 3,606 \\ &= \min(d_{(1,2,3)7};d_{(4,5,6)7}) = \min(4,243; 3,606) \\ \end{aligned} \]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_5 = \left[ \begin{matrix} &(1,2,3,4,5,6) & 7\\ (1,2,3,4,5,6 )& 0,000 & 3,606 \\ 7 & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Matriz de distâncias

\[D_5 = \left[ \begin{matrix} &(1,2,3,4,5,6) & 7\\ (1,2,3,4,5,6 )& 0,000 & \textbf{3,606} \\ 7 & & 0,000 \end{matrix} \right]\]

Métodos de Agrupamento Hierárquicos

Exemplo

Resumo do método de agrupamento

Passo	Nº de grupos	Grupos	Distância
1	7	1, 2, 3, 4, 5, 6, 7	0,000
2	6	(1,2), 3, 4, 5, 6, 7	1,000
3	5	(1,2), 3, (4,5), 6, 7	1,118
4	4	(1,2,3), (4,5), 6, 7	1,414
5	3	(1,2,3), (4,5,6), 7	2,693
6	2	(1,2,3,4,5,6), 7	2,693
7	1	(1,2,3,4,5,6,7)	3,606

Métodos de Agrupamento Hierárquicos

Exemplo

Métodos de Agrupamento Hierárquicos

Determinação do número de grupos

O dendrograma permite ao pesquisador consultar a distância em que os clusters foram combinados para formar um novo cluster.
Clusters que são semelhantes entre si são combinados a baixas distâncias, enquanto grupos que são mais dissimilares são combinados em altas distâncias.
A diferença de distâncias define como os clusters próximos são um do outro.

Métodos de Agrupamento Hierárquicos

Determinação do número de grupos

Uma partição dos dados em um número especificado de grupos pode ser obtida “cortando” o dendograma a uma distância apropriada.
Se traçarmos uma linha horizontal no dendograma a uma determinada distância, então o número \(k\) das linhas verticais cortadas por essa linha horizontal identificará uma solução \(k\)-cluster.
A intersecção da linha horizontal e uma dessas linhas verticais representa um cluster, e os itens localizados no final de todos os ramos abaixo interseção constituem os membros do cluster.

Métodos de Agrupamento Hierárquicos

Determinação do número de grupos

Métodos hierárquicos: comentários finais

Fontes de erros e de variação não são formalmente considerados nos procedimentos hierárquicos: Significa que esses métodos são sensíveis a outliers ou pontos de perturbação

Deve-se sempre verificar a sensibilidade da configuração dos grupos: Os métodos não permitem a realocação de objetos que possam ter sido agrupados incorretamente nos estágios iniciais

É recomendado tentar vários métodos de agrupamento e de atribuição de distâncias (similaridades)

Empates na matriz de distâncias podem produzir múltiplas soluções ao problema de agrupamento hierárquico

Métodos hierárquicos: comentários finais

A maioria dos métodos produz clusters esféricos ou elípticos

O método de ligação simples é um dos poucos métodos que pode delinear cluster não-elípticos
- Tem a capacidade de gerar estruturas geométricas diferentes
- Entretanto, ele é incapaz de perceber grupos pouco separados

Os clusters formados pelo método de ligação simples não serão modificados por qualquer atribuição de distância (similaridade) que dá as mesmas ordenações relativas

Métodos hierárquicos: comentários finais

O método de ligação completa tende a produzir conglomerados de aproximadamente mesmo diâmetro
- Tem a tendência de isolar os valores discrepantes nos estágios iniciais do agrupamento

O método da média das distâncias tende a produzir conglomerados de aproximadamente mesma variância interna
- Em geral, produz melhores partições que os métodos de ligação simples e completa

Métodos hierárquicos: comentários finais

Os métodos de ligação simples, completa e da média podem ser utilizados tanto para variáveis quantitativas quanto para variáveis qualitativas

Os métodos do centróide e de Ward são apropriados apenas para variáveis quantitativas

O método de Ward tende a produzir grupos com aproximadamente o mesmo número de elementos

Espera-se sempre que haja uma certa consistência entre as soluções obtidas por métodos diferentes: pode não ocorrer a igualdade das soluções apresentadas pelos vários métodos

Validação dos agrupamentos

MANOVA

Análise Discriminante

Correlação Cofenética

Gráfico da Silhueta

Validação dos agrupamentos

Correlação Cofenética

Medida de validação usada nos métodos hierárquicos principalmente
Idéia: realizar uma comparação das distâncias observadas e preditas (via a formação de agrupamentos) entre os objetos

Validação dos agrupamentos

Correlação Cofenética

Em um bom agrupamento, espera-se que as distâncias previstas respeitem a ordem determinada pelas distâncias observadas.
Para avaliar a ocorrência desse comportamento, define-se a correlação cofenética como sendo a correlação entre as distâncias efetivamente observadas e as previstas.

Validação dos agrupamentos

Gráfico da Silhueta

A análise (gráfico) da silhueta é um método utilizado para interpretação e validação de uma análise de clusters.
Consiste no cálculo e representação gráfica de uma medida de quão bem cada elemento está alocado ao respectivo cluster.
Tomando a média dessas medidas em um particular cluster, tem-se uma medida de coesão do cluster;
Tomando-se a média dessas medidas em toda a amostra, tem-se uma medida de consistência dos agrupamentos formados.

Validação dos agrupamentos

Gráfico da Silhueta

\(a_{(i)}\) = distância média do objeto \(i\) para os elementos de seu próprio grupo
\(b_{(i)}\) = distância média do objeto \(i\) para os elementos do grupo mais próximo

\[s_{(i)} = \displaystyle{\dfrac{b_{(i)} - a_{(i)}}{\max(b_{(i)},a_{(i)})}}, \,\,\, i = 1, \cdots, n\]

Por definição, \(-1 \leqslant s_{(i)} \leqslant 1\).

Validação dos agrupamentos

Gráfico da Silhueta

Se \(a_{(i)} <<< b_{(i)}, s_{(i)} \approx 1\), indicando que \(i\) é muito menos dissimilar dos elementos de seu grupo do que dos elementos dos outros grupos (\(i\) está bem alocado);
Se \(a_{(i)} >>> b_{(i)}, s_{(i)} \approx −1\), indicando que \(i\) é muito mais dissimilar dos elementos de seu grupo do que dos elementos do grupo vizinho (\(i\) está mal alocado);
Se \(a_{(i)} \approx b_{(i)}, s_{(i)} \approx 0\), indicando que \(i\) está na fronteira de seu grupo e do grupo vizinho.

Validação dos agrupamentos

Gráfico da Silhueta

Silhueta Média	Interpretação Sugerida
\(0{,}71 - 1{,}00\)	Grupos encontrados possuem estrutura muito robusta
\(0{,}51 - 0{,}70\)	Grupos razoavelmente unidos
\(0{,}26 - 0{,}50\)	A estrutura encontrada é fraca, tente outros métodos de agrupamento
\(\leqslant 0{,}25\)	Nenhuma estrutura encontrada

Métodos de agrupamento não-hierárquicos - MANH

Os MANH não se baseiam em sucessivas aglomerações (ou partições) dos elementos com base numa matiz de distâncias;

Nos MANH tem-se a possibilidade de realocar indivíduos entre clusters ao longo do processo, diferentemente do que ocorre nos métodos hierárquicos;

Há diferentes técnicas não hierárquicas de agrupamento, dentre as quais aquelas baseadas em partições amostrais (particularmente o algoritmo k-means) são as mais populares.

Método k-médias (k-means)

Selecionar aleatoriamente \(k\) indivíduos como centroides iniciais (ou escolha os centroides iniciais de alguma forma);

Calcular as distâncias entre cada indivíduo e o centro de cada um dos \(k\) grupos e classificar o indivíduo no grupo mais próximo.

Calcule o centroide de cada grupo;

Repita os passos \(b)\) e \(c)\) até que os centroides não apresentem mais mudanças.

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias (k-means)

Esquematicamente

Método k-médias: comentários finais

O algoritmo é sensível à configuração inicial dos clusters (passo \(a)\)), podendo produzir resultados diferentes mediante diferentes partições iniciais.

O usual é considerar, inicialmente, \(k\) “sementes”, que seriam \(k\) pontos definidos em \(R^p\).

O processo inicia alocando cada elemento à semente mais próxima, e atualizando o ponto de referência do cluster (centroide) cada vez que ele incorpora um novo elemento.

Podemos definir as sementes como os vetores de observações de \(k\) elementos selecionados aleatoriamente da base.

Método k-médias: comentários finais

Nota: Estabelecer alguma restrição quanto à distância das sementes, garantindo alguma distância mínima entre elas, pode ajudar na performance do método.

As sementes podem ser definidas como \(k\) vetores quaisquer definidos em \(R^p\);

Caso se considere algum mecanismo aleatório de seleção de sementes, é recomendável que o processo seja repetido um número \(m\) de vezes, identificando-se, dentre as \(m\) soluções obtidas, a solução ótima;

Método k-médias: comentários finais

Uma alternativa é rodar, inicialmente, uma análise hierárquica, e definir \(k\) clusters;

Os centroides dos \(k\) clusters obtidos podem servir de semente para o algoritmo k - means.